Целью работы является разработка способа и алгоритма распознавания объектов окружающего пространства, качество работы которого не будет зависеть от числа типов объектов реального мира, которые он может распознавать. Для этого поставлены и решены задачи распознавания множества элементарных геометрических объектов (признаков-примитивов), определения отношений между ними и поиска соответствий между найденными признаками-примитивами и отношениями и заданными шаблонами–описаниями сложносоставных и простых объектов реального мира. Для распознавания элементарных геометрических фигур применена нейронная сеть свёрточного типа. Для её обучения использовались искусственно сгенерированные изображения с элементарными геометрическими фигурами (3D примитивами), которые располагались на сцене случайным образом с различными свойствами их поверхностей и текстурами. В результате обучения была получена нейронная сеть, способная распознавать объекты примитивы. Сформировано множество отношений, необходимое для распознавания объектов, которые могут быть представлены как составные из признаков-примитивов. В предложенном способе распознавания количество классов для поиска ограничивается набором признаков-примитивов. Проверка на фотографиях реальных объектов показала способность распознавать объекты реального мира в независимости от их типа (в случаях, когда возможны их разные модели и модификации) и материала изготовления, а также способность успешно решать задачи поиска объектов в условиях частичного перекрытия объектов и их ограниченной видимости и частичной деформации. В работе рассмотрен пример с распознаванием светильника уличного освещения. Пример показывает способность алгоритма не только выявлять объект на изображении, но и определять ориентацию положения его составляющих. Предложенное решение может быть использовано в задачах манипуляции объектами внешнего мира робототехническими системами.
Представлено сравнение дискретных скрытых марковских моделей и свёрточных нейронных сетей для классификации изображений. После разбивки изображений на части целесообразно получить векторы, которые представляют локальные визуальные структуры, одновременно определяющие изображения глобально через пространственную последовательность. С использованием методов кластеризации создается алфавит из указанных векторов, а затем конструируются последовательности символов, которые описывают статистические модели, соответствующие классам изображений. Скрытые марковские модели в сочетании с методами квантования могут обрабатывать шум и искажения в наблюдениях для решения проблем компьютерного зрения, таких как классификация изображений с изменением освещения и перспективы.
Протестированы архитектуры, основанные на трех, шести и девяти скрытых состояниях, в пользу скорости обнаружения и низкого использования памяти. Также были протестированы два типа ансамблевых моделей. Точность предлагаемого метода была оценена с помощью общедоступных данных; полученные результаты оказались сравнимы с известными оценками при использовании тонко настроенных свёрточных нейронных сетей, но требовали значительно меньших вычислительных ресурсов. Результат представляет интерес при разработке мобильных роботов с вычислительными устройствами, имеющими ограниченное время автономной работы, но требующими способности обнаруживать и добавлять новые объекты в свои системы классификации.
Рассматриваются актуальные и перспективные направления по использованию высокоскоростных видеокамер. Обсуждается возможность применения высокоскоростных камер в области человеко-машинного взаимодействия для автоматического распознавания динамической видеоинформации (в том числе визуальной речи диктора). Выделяются основные задачи взаимодействия, решаемые с помощью высокоскоростных камер, такие как: автоматическое чтение речи по губам диктора, обнаружение моргания, распознавание микровыражений. Обозначаются возможные проблемы, связанные с внедрением высокоскоростных видеокамер. Анализируется состояние области исследований на настоящий момент и доказывается, что имеется высокая актуальность развития данного научно-технического направления. Предлагаются многообещающие области применения и задачи организации человеко-машинного взаимодействия с применением высокоскоростной видеосъемки. Основными направлениями являются аудиовизуальное распознавание слитной речи и чтение речи по губам диктора. В ходе дальнейших исследований планируется реализация подобной многомодальной системы аудиовизуального распознавания речи для русского языка с использованием микрофона и высокоскоростной видеокамеры JAI Pulnix.
В настоящей работе предлагается подход к обнаружению широкого класса визуальных контаминантов на основе вычисления перцептивных хэшей и формирования эталонной базы данных потенциально опасных мультимедийных объектов для построения автоматической системы защиты потребителей мультимедийного контента от нежелательного воздействия на их психику и сознание.
Рассматривается проблема персонифицированной настройки оборудования интеллектуального зала и формирования профиля пользователя на основе многоканальной обработки аудио- и видеопотоков, регистрирующих текущую ситуацию и поведение участников мероприятия в зале совещаний. Компьютерное зрение предпочтений по использованию оборудования, пользовательскому интерфейсу, роли и активности участников во время мероприятий позволяет автоматизировать процессы подготовки интеллектуального зала, управления мультимедийным презентационным и записывающим оборудованием в ходе выступлений. С помощью разработанной системы аудиовидеолокализации выступающих в ходе нескольких совещаний в интеллектуальном зале в автоматическом режиме было сделано 212 записей. Накопленные экспериментальные данные позволили оценить места в зале, с которых чаще всего задаются вопросы. Точность наведения видеокамеры на выступающего в зоне презентаций, а также в рядах кресел оценивалась по размеру и положению его лица в кадре на протяжении всей съемки и в среднем составила 90%.
Задача поиска образца в изображении в той или иной форме является одной из базовых задач в области компьютерного зрения. Она возникает в задачах определения оптического потока, стереозрения, сопровождения. Один из классических подходов, предложенный Б. Лукасом и Т. Канаде, основывается на оптимизации некоторого функционала качества. В работе предлагается алгоритм поиска образца в изображении (алгоритм случайной выборки), основанный на подходе Лукаса–Канаде и показывающий высокие результаты по производительности.
1 - 6 из 6 результатов